AI资讯新闻榜单内容搜索- Transform

原来Scaling Law还能被优化？Meta这招省token又提效

2017 年，一篇《Attention Is All You Need》论文成为 AI 发展的一个重要分水岭，其中提出的 Transformer 依然是现今主流语言模型的基础范式。尤其是在基于 Transformer 的语言模型的 Scaling Law 得到实验验证后，AI 领域的发展更是进入了快车道。

来自主题: AI技术研报

8096 点击 2025-07-06 14:56

AI Agent、传统聊天机器人有何区别？如何评测？这篇30页综述讲明白了

自从 Transformer 问世，NLP 领域发生了颠覆性变化。大语言模型极大提升了文本理解与生成能力，成为现代 AI 系统的基础。而今，AI 正不断向前，具备自主决策和复杂交互能力的新一代 AI Agent 也正加速崛起。

来自主题: AI技术研报

6828 点击 2025-07-03 10:31

95后，边改造业务边发AI顶会论文，是怎样的体验？

在 AI 时代的浪潮下，顶尖人才影响力空前高涨，其地位更被市场推升至了前所未有的高度。无论是谷歌 Transformer 论文八子，还是从 OpenAI 出走的科学家，他们要么自立门户，拿到亿级投资、百亿级估值，或者跳槽到他处，凭己之力拉近企业间的技术代差甚至影响竞争格局。

来自主题: AI资讯

9056 点击 2025-07-01 10:50

无需训练，即插即用，2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

在高质量视频生成任务中，扩散模型（Diffusion Models）已经成为主流。然而，随着视频长度和分辨率的提升，Diffusion Transformer（DiT）模型中的注意力机制计算量急剧增加，成为推理效率的最大瓶颈。

来自主题: AI技术研报

8517 点击 2025-06-28 16:09

ICML 2025 | 打破残差连接瓶颈，彩云科技&北邮提出MUDDFormer架构让Transformer再进化！

但在当今的深度 Transformer LLMs 中仍有其局限性，限制了信息在跨层间的高效传递。彩云科技与北京邮电大学近期联合提出了一个简单有效的残差连接替代：多路动态稠密连接（MUltiway Dynamic Dense (MUDD) connection），大幅度提高了 Transformer 跨层信息传递的效率。

来自主题: AI技术研报

7902 点击 2025-06-28 11:33

人民大学&字节Seed：利用μP实现Diffusion Transformers高效扩展

近年来，diffusion Transformers已经成为了现代视觉生成模型的主干网络。随着数据量和任务复杂度的进一步增加，diffusion Transformers的规模也在快速增长。然而在模型进一步扩大的过程中，如何调得较好的超参（如学习率）已经成为了一个巨大的问题，阻碍了大规模diffusion Transformers释放其全部的潜能。

来自主题: AI技术研报

9130 点击 2025-06-26 15:52

7B小模型超越DeepSeek-R1：模仿人类教师，弱模型也能教出强推理LLM | Transformer作者团队

Thinking模式当道，教师模型也该学会“启发式”教学了—— 由Transformer作者之一Llion Jones创立的明星AI公司Sakana AI，带着他们的新方法来了！

来自主题: AI技术研报

10919 点击 2025-06-25 10:55

技术Blog-4 | 新一代InfLLM：可训练的稀疏注意力机制

本文深入剖析 MiniCPM4 采用的稀疏注意力结构 InfLLM v2。作为新一代基于 Transformer 架构的语言模型，MiniCPM4 在处理长序列时展现出令人瞩目的效率提升。传统Transformer的稠密注意力机制在面对长上下文时面临着计算开销迅速上升的趋势，这在实际应用中造成了难以逾越的性能瓶颈。

来自主题: AI技术研报

9444 点击 2025-06-16 15:24

微软等提出「模型链」新范式，与Transformer性能相当，扩展性灵活性更好

随着大语言模型 (LLM) 的出现，扩展 Transformer 架构已被视为彻底改变现有 AI 格局并在众多不同任务中取得最佳性能的有利途径。因此，无论是在工业界还是学术界，探索如何扩展 Transformer 模型日益成为一种趋势。

来自主题: AI技术研报

9223 点击 2025-06-03 09:58

原来Veo 3早有苗头！人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架

来自中国人民大学高瓴人工智能学院与值得买科技 AI 团队在 CVPR 2025 会议上发表了一项新工作，首次提出了一种从静态图像直接生成同步音视频内容的生成框架。其核心设计 JointDiT（Joint Diffusion Transformer）框架实现了图像 → 动态视频 + 声音的高质量联合生成。

来自主题: AI技术研报

10304 点击 2025-05-29 14:20